Python pandas 里面的数据类型坑,astype要慎用

您所在的位置:网站首页 pandas to string Python pandas 里面的数据类型坑,astype要慎用

Python pandas 里面的数据类型坑,astype要慎用

#Python pandas 里面的数据类型坑,astype要慎用| 来源: 网络整理| 查看: 265

背景

最近在项目处理数据时,对pandas里面的数据类型进行转换时(astype),产生了一些意外的情况,经过研究,对数据框里面的数据类型,又有了新的认识,分享出来供大家参考学习。

创建模拟数据 模拟数据 假如模拟的数据如上图所示,里面有一些空单元格,下面读取模拟数据 import pandas as pd import numpy as np data=pd.read_excel('111.xlsx',sheet_name='astype') data 读取模拟数据 查看整体数据类型,可以看出所有的数据类型均为object,这里的object对应的是python里面的str字符类型 data.dtypes 数据类型 数据类型对应 查看字段4每一个数据是什么类型 for i in data['字段4']: print(i,'\t',type(i)) 每个数据类型

可以看出字段4这一列里面,有str、float、int三种数据类型,这里就可以看出一列里面数据类型可以不同,类似Excel一列,每个单元格可以存放不同类型的数据,和数据库里面一列完全不一样,数据库里面一列数据类型在建表时,已声明类型,只存放一种类型。但是上面在获取整列数据类型时返回的是object,用的是最大的数据类型,能囊括整列的数据类型

如果astype类型强制转换 data['字段4_astype']=data['字段4'].astype('str') data for i in data['字段4_astype']: print(i,'\t',type(i)) 类型强制转换

可以看出这里全部转换为str,NaN也会强制转换为字符型nan,不再是np.nan

nan

这样的话就出现一个问题,astype是强制把所有的类型都转换为str,而不忽略NaN,要对非NAN进行转换,就需要自定义函数来实现

自定义函数实现非NAN转换类型 def astype_str_notna(df): ''' 传入参数:数据框里面一列 Series return:转换后的一列 Series ''' t=[] for i in df: if type(i)== float: if not np.isnan(i): i=str(int(i)) if type(i)== int: i=str(i) t.append(i) return pd.Series(t) data['字段4_def']=astype_str_notna(data['字段4']) data data['字段4'].isna() 自定义函数

通过自定义函数,可以实现数据类型转换,而忽略NAN,从而达到在数据统计时,不会计算NAN

数据统计


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3